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摘 要 : 针对 移动 互联 网 流量 识别 问题 ， 基 于 多 项 性 能 评估 指标 ， 分 析 K- 均 值 和 谱 聚 类 算法 在 不 同 特征 集合 或 不 同 识 
别 目 标的 流量 数据 集 上 的 聚 类 性 能 ; 并 提出 基于 多 特征 集合 的 集成 聚 类 方法 。 比 较 分 析 实 验 表 明 ， 相 同 聚 类 方法 在 不 
同 特征 集合 或 不 同 识别 目标 数据 集 上 性 能 有 所 不 同 , 集 成 聚 类 方法 能 够 有 效 提高 利用 单个 特征 集合 的 聚 类 方法 的 性 能 。 
进一步 将 集成 聚 类 方法 应 用 于 App 关联 分 析 ， 分 析 结 果 可 为 移动 App 的 划分 和 用 户 行为 分 析 提 供 客观 依据 。 
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Abstract: To handle the mobile traffic identification problem, based on multiple performance evaluation metrics, this paper 
analyzed the performance of K-Means and Spectral Clustering algorithms on the data sets characterized by different feature 
sets or labeled with different class set, and proposed an ensemble clustering method from the aspects of combining the 
clustering results on the data sets with different feature sets. Experimental results show that the performance of the same 
clustering algorithm is different on the data sets with different feature sets or traffic classes, and the ensemble clustering 
method is able to improve the overall clustering performance. Further, this paper applies the ensemble clustering method on 
the correlation analysis of mobile apps, and the results can support the decision on grouping apps and analyzing user 
behaviors. 
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明 支 持 向 量 机 比 朴 素 贝 叶 斯 的 流量 分 类 性 能 更 加 稳定 ;Soysal 


0 引言 等 人 错误 ! 未 找到 引用 源 。 的 比较 实验 结果 表明 决策 树 比 贝 叶 斯 

近年 来 ， 随 着 移动 互联 网 与 智能 终端 设备 的 快速 发 展 ， 用 网 络 和 多 层 感 知 器 在 流量 分 类 方面 具有 更 高 的 准确 性 和 有 效 
户 可 以 随时 随地 访问 互联 网 。 成 干 上 万 的 智能 手机 应 用 每 天 产 。 性。 后 续 多 种 互联 网 流量 识别 方法 被 提出 ， 主 要 关注 于 在 线 流 
生 海量 数据 ， 移 动 互联 网 流量 数据 日 益 庞大 。 网 络 流量 是 记录 。。 量 分 类 问题 错误 ! 未 找到 引用 源 。、 不 平衡 分 类 问题 错误 ! 未 找到 
和 反映 网 络 及 其 用 户 活动 的 重要 载体 。 通 过 网 络 流量 识别 ， 可 引用 源 。 分 类 和 鲁 棒 性 &67 等 。 聚 类 方法 的 优点 是 无 需 有 标记 数 
以 间接 地 掌握 互联 网 的 使 用 情况 ， 从 而 为 网 络 运营 、 监 控 和 测 ， 据 参与 模型 训练 &9。 在 互联 网 流量 聚 类 方法 研究 方面 ， 多 种 聚 
量 方面 提供 辅助 决策 (1。 类 方法 被 用 于 互联 网 流量 识别 ,例如 K 均值 、 高 斯 混合 模型 和 

基于 机 器 学 习 的 流量 识别 方法 成 为 近年 来 的 研究 热点 。 早 。” 谱 聚 类 10%11，DBSCAN “em 等 。 近 期 ， 鲁 刚 等 人 02 利 用 
期 ， 在 传统 互联 网 流量 数据 上 ， 徐 觅 等 人 乌 的 实验 比较 分 析 表 ”前 N (N=1, .…, 10) 个 报 文大 小 的 特征 建立 基 聚 禾 模 型 ， 然 后 
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利用 基 聚 艇 模型 进行 聚 类 ， 基 于 聚 类 概率 作为 新 的 特征 建立 新 
数据 集 ， 并 利用 有 监督 学 习 方 法 SVM 做 最 终 决 策 ， 但 是 实验 
数据 仍然 是 传统 互联 网 流量 。 在 移动 互联 网 流量 上 ， 已 有 文献 
要 关注 基于 载荷 的 App 识别 “as 和 基于 机 器 学 习 的 
App 行为 识别 错误 ! 未 找到 引用 源 。， 文 献 错误 ! 未 找到 引用 源 。 
基于 聚 类 方式 识别 移动 互联 网 流量 的 P2P、WESB 等 服务 类 型 ， 
基于 聚 类 方法 的 移动 App 流量 识别 研究 较为 缺乏 并。 

已 有 互联 网 流量 识别 相关 研究 工作 面临 如 下 问题 : a) 各 文 
坝 采 用 了 不 同 的 特征 集合 9， 如 单 向 流 特征 集合 2 切 、 双 向 流 
村 征集 合 2020; 各 实验 数据 集 的 识别 目标 也 有 所 不 同 ,例如 App 
别 〈 微 信 、QQ 等 ) sse 、 用 户 行为 级 别 〈 文 本 聊天 、 
视频 通话 等 ) $&fees， 各 文献 的 实验 结果 不 能 直接 进行 比 
较 :b) 为 管理 大 量 的 App， 通 常 根据 主观 意识 进行 App 类 别 划 
分 ， 建 立 粗 粒 度 识 别 目标 ， 但 是 这 种 方式 存在 主观 随意 性 ， 缺 
乏 客 观 依据 。 
针对 上 述 问题 ， 本 文 主要 贡献 如 下 : 

a) 基于 Mobilegt 系统 错误 ! 未 找到 引用 源 。, 采集 移动 互联 
网 流量 数据 集 ， 在 数据 集 上 提取 四 种 不 同 的 流量 特征 集合 ， 开 
展 App 级 别 和 上 网 行为 (Behavior) 级 别 的 流量 类 别 标记 工作 ， 
为 本 文 的 聚 类 方法 研究 提供 数据 基础 。 

b) 利用 多 项 性 能 评估 指标 , 在 不 同 特征 集合 、 不 同 粒度 类 
别 标签 的 流量 数据 集 上 ， 比 较 分 析 各 聚 类 方法 、 特 征集 合 的 1 


写 芝 要 


商 


c) 为 综合 利用 不 | 提出 集成 聚 类 方 
法 ， 进 一 步 提高 单 特征 集合 建立 的 聚 类 模型 的 流量 识别 性 能 ; 
d) 基于 集成 聚 类 方法 ， 提 出 移动 App 相似 度 评价 指标 ， 
此 相似 度 分 析 结 果 为 App 归 类 《如 社交 类 、 视 频 类 等 ) 提供 客 
观 建议 ， 并 辅助 用 户 上 网 行为 分 析 。 


1 ”集成 聚 类 算法 


将 机 器 学 习 算 法 用 于 网 络 流量 识别 ， 需 要 首先 对 原始 报 文 
建立 网 络 流 ， 并 提取 流 统计 特征 〈 如 报 文大 小 、 流 持续 时 间 等 
统计 特征 ), 然后 建立 特征 向 量 描述 的 流 样 本 集合 , 将 其 作为 机 
器 学 习 算法 的 输入 ， 训 练 识别 模型 。 已 有 研究 表明 ， 不 同 角度 
的 流 统计 特征 集合 错误 ! 未 找到 引用 源 。 已 被 提出 ， 并 用 于 网 络 
流量 识别 。 聚 类 算法 比较 实验 结果 (详情 见 3.2 小 节 ) 显示 不 
同 角度 的 特征 集合 可 能 有 各 自 的 优势 ， 不 分 伯仲 。 受 此 启发 ， 
结合 集成 学 习 模 型 的 特点 ， 集 成 各 特征 集合 描述 的 流量 数据 集 
上 的 聚 类 结果 ， 可 进一步 提高 聚 类 方法 的 性 能 。 据 此 ， 本 文 提 
出 基于 多 个 特征 集合 的 集成 聚 类 算法 (multi-feature sets based 


ensemble clustering, MFEC ) 。 
1.1 基本 概念 
为 方便 理解 本 文 的 网 络 流量 识 另 
关 的 基本 概念 。 
引 网 络 流量 识别 : 将 网 络 IP 报 文 映射 为 流量 类 别 ( 例 如 移 
动 App、 用 户 行 为 等 )。 


= 


作 ， 本 小 节 首 先 给 出 相 


b) 网 络 流 : 
{ 源 了‘、 


组 成 。 


c) 流 统计 特征 


在 一 定时 间 间 隅 内 (如 300s), 具 
源 端口 、 目 的 一、 目的 端口 、 传 输 层 协议 世 


: 在 组 成 网 络 流 
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= be = 


报 文 到 达 时 间 间 隔 等 统计 值 。 
1.2 基于 多 特征 集合 的 集成 聚 类 算法 (MFEC) 


假设 


设 有 n 个 特征 集合 ， 


个 样 


本 集合 {S57, 9 Sm}, 


Si={ (Xi1, y1), (Xi2, y2), ..., 


表示 利 


成 聚 类 方法 的 伪 代 码 如 算法 1。 主 要 步骤 包括 : 
在 m 个 样本 集合 上 , 利用 基础 聚 类 算法 (例如 开 均值 )， 


a) 
分 别 训 
b) 


将 站 和 x 划分 到 一 


用 第 i 个 特征 向 量 拉 


练 聚 类 模型 {fi, 记 , . 


为 了 处 理 集成 聚 类 的 不 一 致 问 题 ， 利 用 


fn}。 


的 IP 报 文 上 , 提取 


对 网 络 流量 数据 5 特征 


相同 五 元 组 
的 IP 报 文 


及 文大 小 、 


化 后 ， 建 立 
(Xn, yn)}, XY 


述 第 j 条 网 络 流 建立 的 流 档 


本 。 


和 集 


-人 


每 个 聚 类 模型 
万 建立 一 个 流 样本 之 间 的 关联 矩阵 M， MI 记录 了 所 是 否 


个 聚 秘 中 《〈 若 相同 ， 取 值 为 1， 


否则 为 0); 


c) 各 关联 矩阵 相 乘 ， 最 后 将 两 两 关联 的 样本 划分 到 同一 


这 


人 


意味 着 , 仅 当 m 个 聚 类 模型 将 某 些 样本 划分 到 同一 个 聚 


徐 时 ， 它 们 最 终 才 在 同一 个 聚 徐 。 例 如 有 5 个 流 样 本 ， 表 示 为 
Xl X2, X3, X4, X5， 有 2 个 聚 类 模型 ,分别 开展 聚 簇 后 获得 的 样本 
关联 和 矩阵 为 Mi 和 M2. 基于 Mi 可 得 {x x2, xX3); {x4, x5} 两 个 簇 ; 
基于 M2 可 得 {x2, x3}; {xX1, x4, X5} 两 个 秘 。 集 成 两 个 聚 簇 结果 后 
的 聚 簇 由 M=M1:M2 获 得。 集成 后 得 到 {x1}; {x2, x3}; {x4, X5} 三 
个 簇 。 
1100 10011 10000 
1100 01100 01100 
ML = 1100 M,=l0 1 100 M=M*M,=I0 1 1 00 
00011 10011 00011 
00011 1 OL1 00011 
算法 1 MFEC 集成 聚 类 算法 
输入 51,..., Sm 
输出 样本 率 徐 标签 
fori=1tom 


万 = BasicClustering(Si)// 在 每 个 数据 集 上 训练 一 个 聚 类 模型 


MDID[ = 1; // 构 建 关 联 和 矩阵 M 


end 
fori = 1 to 7 
forj=1ton 
fork=1ton 
if fi(%) == fi(x) 
end 让 
end for 
end for 
end for 
fori=2ton 
MI = M[1]-ML[i]; 
end for 
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录用 稿 吴 志 敏 ， 等 : 面向 移动 App 流量 的 多 特征 集合 集成 聚 类 方法 研究 与 应 用 
labels[] = getCluster(CM[1]DD) 基 于 关联 矩阵 M 获得 每 个 样本 簇 号 dstPort(Pkt) = Portl & srcPort(Pkt) = Portz) & Protocol(PKkt) = 
pro}。 
2 ”移动 互联 网 流量 数据 采集 与 预 处 理 国 、 
人 基于 以 上 定义 ， 本 文 提取 的 四 种 流 统计 特征 描述 如 下 
2.1 流量 数据 采集 1) 单 向 流 统计 特征 〈UniDirection ) 错误 ! 未 找到 引用 源 。 
基于 Mobilegt 系统 错误 ! 未 找到 引用 源 。 的 实验 数据 采集 IN 总 报 文 数 , IN 字 节 数 , IN 报 文大 小 (最 小 、 最 大 、 平均 、 
环境 部 署 如 图 1 所 示 。Mobilegt 包括 客户 端 MgtClient 应 用 ， 标准 差 、 峰 度 、 偏 度 、 标 准 误 差 )，IN 报 文 到 达 时 间 间 隔 ( 最 小 、 


服务 器 端 MgtServer 程序 。 在 移动 终端 设备 上 安装 MgtClient， 最 大 、 平 均 、 标 准 差 )，IN 流 持 续 时 间 ; OUT 总 报 文 数 ，OUT 
将 MgtServer 程序 部 署 到 服务 器 端 。 用 户 在 移动 终端 开启 字 节 数 ，OUT 报 文大 小 (最 小 、 最 大 、 平 均 、 标 准 差 、 峰 度 、 
MgtClient， 并 点 击 连接 按钮 ， 启 动 VPN 服务 和 Socket 数据 采 偏 度 、 标 准 误差 )， OUT 报 文 到 达 时 间 间 隔 ( 最 小 、 最 大 、 平 均 、 
集 程序 ; 然后 用 户 像 往常 一 样 使 用 其 它 应 用 , 例如 微 信 、 微 博 标准 差 )，OUT 流 持 续 时 间 。 


沁 


浏览 网 页 等 。 移 动 端 产 生 的 流量 会 重 路 由 到 服务 器 端 ， 在 服务 2) 双向 流 统 计 特征 (BiDirection ) 
器 端 MgtServer 程序 采集 客户 端 发 出 和 接收 的 所 有 网 络 流量 数 总 报 文 数 ， 字 节 数 ,， 报 文大 小 (最 小 、 最 大 、 平 均 、 标 准 差 、 
据 。MgtClient 采集 所 有 网 络 会 话 信息 ， 即 : 五 元 组 ( 源 IP、 峰 度 、 偏 度 、 标 准 误差 )， 报 文 到 达 时 间 间 隔 ( 最 小 、 最 大 、 平 


源 端 口 、 目 的 他 、 目 的 端口 和 传输 层 协议 ) 与 App 的 映射 关系 ， 均 、 标 准 差 )， 流 持续 时 间 。 
记录 到 Socket 文件 。 当 移动 端 结束 数据 采集 ，MegtClient 将 3) 前 天 个 报 文 大 小 分 布 PS) 5 
Socket 数据 发 送 到 服务 器 端 ， MgtServer 程序 接收 Socket 文件 ， 前 大 各 报 文 大 小 ， 分 别 表 示 为 {psl, ps2, .…, pSk} 。 
基于 Socket 文件 对 采集 的 网 络 流量 数据 进行 App 标记 工作 。 4) 前 大 个 报 文大 小 分 布 -映射 (PS-mapped) BC 
| Socket 文件 记录 了 客户 端 网 络 流量 的 真实 App 信息 。 因 此 ， 将 前 上 个 报 文 的 报 文大 小 映射 为 4 个 数值 {1, 2, 3,4}， 新 
~ MgtServer 可 以 利用 Socket 文件 对 网 络 流量 进行 100% 准 确 率 的 ” ”的 特征 表示 为 {v1, v2，.…, vk}。IN 方向 的 报 文大 小 的 映射 如 式 
3 类 别 标记 工作 。 (1)，OUT 方向 的 报 文 大 小 的 映射 如 式 〈2) 所 示 。 
NR 1 ps;=[0,150] 
S tom 中 
aa 4 psi=[1300,1500] 
C= -1 ps;=[0,150] 
中 o 
之 ; -4 ps,=[1300,1500] 
\ | 局 socket 信 和 并 上 人 到 2.3 实验 数据 
> uy 图 1 数据 采集 环境 2.3.1 SAD (specific application data， 特 定 应 用 数据 ) 
一 2.2 流量 数据 预 处 理 为 了 验证 不 同 特征 集合 在 不 同类 别 标签 数据 集 上 的 性 能 ， 
© 在 采集 的 移动 互联 网 流量 报 文 数据 上 ， 首 先 组 流 并 提取 流 ”本 文 针对 三 种 常用 社交 应 用 (QQ、 微 信 、 微 博 ), 采集 了 SAD 


A 建立 流 样 本 集合 。 已 有 多 种 流 统计 特征 被 用 于 流量 ”数据 集 。 采 集 过 程 为 : 用 户 根据 规定 的 App 和 上 网 行为 (例如 
识别 ， 最 常用 的 是 基于 报 文大 小 和 报 文 到 达 时 间 间 隔 的 统计 计 ， 微 信 视 频 通话 、 微 信 文 本 通话 等 )， 运 行 特定 的 App 并 执行 相 
算 。 ee i 相关 定义 应 的 行为 ， 每 个 应 用 持续 时 间 大 概 20 min。 


如 下 : 表 1 App 类 别 标签 数据 集 
假设 某 移 动 设备 (IP1，Port1) 与 某 服务 器 (IP2，Port2) 利 App 类 别 ” 流 数 目 报 文 数目 字 节 数目 /MB 
用 传输 层 协议 pro 进行 通信 。 在 一 定时 间 间 隔 内 ， 它 们 之 间 通 Qo 206 16301 1127507 
信 的 了 P 报 文 组 成 了 网 络 流 。 WeChat 272 475412 188.930 
定义 1 单 向 流 。 由 单个 方向 的 人 P 报 文 组 成 ，OUT 方向 Weibo 336 122287 96.889 
的 网 络 流 表 示 为 {Pki| srcIP(PkD)=IP! & dstIP(PKkD)= IP2 & 总 数 814 2230730 1413.406 
srcPort(Pk?t) = Porti& dstPort(PKkt) = Portz & Protocol(PKk?) = pro}:; 在 运行 过 程 中 Mobilegt 系统 采集 原始 报 文 数据 、 组 流 、 提 
IN 方向 的 网 络 流 表示 为 {Pkt| dstIPCPKD)=IP1& srcIP(PKD)= IP2& 。 取 特征 、 并 根据 Socket 信息 标记 网 络 流 样本 的 App 类 别 标签 。 
dstPort(Pkt) = Portl & srcPort(Pkt) = Port & Protocol(PKkt) = 根据 用 户 在 规定 时 间 内 运行 特定 App 的 上 网 行为 记录 ,以 人 工 
P1oj}。 标记 方式 标记 流 样本 的 Behavior 类 别 标签 。 这 意味 着 ， 上 述 采 
定义 2 双向 流 。 由 两 个 方向 的 下 报 文 组 成 ,表示 为 {Pki| 。 集 的 原始 流量 数据 上 赋予 了 两 种 类 别 标签 (App 类 别 标签 和 


(srcIP(PKk1)=IP1 & dstIP(PKkt)= IP» & srcPort(PKkt) = Port & Behavior 类 别 标签 ), 两 种 类 别 标签 的 流量 数据 在 类 间 的 分 布 如 
dstPort(Pkt) = Port2) || (dstIP(PKkD)=IP! & srcIP(PKkD)= JP: & 表 1 和 表 2 所 示 。 两 个 数据 集 的 数据 来 源 相 同 ， 只 是 流 样 本 的 
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标签 类 型 不 同 ， 两 个 数据 集 


相同 。 


表 2 Behavior 类 别 标签 数据 集 


Behavior 类 别 ” 流 数 报 文 数 


audiochat 
browse 
chat 
Post 
Videochat 


2.3.2 MAD (more applications data， 多 应 用 数据 ) 

SAD 数据 集 涉及 到 人 工 标记 ,采集 的 数据 有 限 。 为 了 验证 
集成 聚 类 方法 在 更 多 App 流量 数据 集 上 的 性 
此 数据 集 来 自 于 多 个 用 户 ， 
终端 应 用 ，mobilegt 服 


了 MAD 数据 集 ， 


意愿 开启 mobilegt 


的 总 体 流 数 目 


13 248 428 
361 107 828 
267 243 984 
160 1 048 508 

13 581 982 


814 2230730 


能 。 本 文 另 外 采集 


记 流 量 数据 ， 采 集 时 间 为 2017 年 1 月 ， 然 后 
App 进行 实验 。MAD 数 # 


SAD， 其 具有 更 多 
验证 集成 聚 类 方法 的 性 能 ， 并 分 析 集 


App 类 别 
Browser 
JdShop 
MegTV 
QQ 
VipShop 
WeChat 


Weibo 


YahooMail 


Youku 


昌 的 类 间 分 布 情况 如 表 3 所 示 ， 可 
的 不 同 App 标签 。 在 这 组 数 扩 


表 3 MAD 数据 集 


聚 类 应 用 情况 。 


流 数 报 文 数 


4 000 469 578 


1 209 216 806 
4 000 3 153 559 
4206 3 874 852 
1745 433 065 
3 684 1037 697 
4336 1 758 350 
2 443 111 108 


3 054 14 63 226 


3 ” 聚 类 方法 比较 实验 


3.1 实验 设计 


本 文 实验 首先 


分 析 不 同 流 统计 特征 身 
EF 人 


[未 


2.2 小 节 的 4 个 特 条 
而 可 得 到 8 个 不 同 
聚 类 方法 开展 聚 类 


? 


聚 类 性 能 评估 指标 


结果 的 影响 , 实验 采用 
理 。 每 个 聚 类 方法 石 


为 20 次 的 平均 。 为 


CC 


比较 不 同 的 聚 类 方法 在 不 后 
类 别 标签 流量 数据 集 上 的 聚 类 性 能 ， 然 后 有 
的 MFEC 集成 聚 类 算法 的 性 能 。 


了 实验 比较 本 文 提 
前 尚未 查阅 至 


居 合 的 性 能 。 在 SAD 数据 集 上 ， 提 取 了 
合 ， 并 且 SAD 标记 了 2 种 类 别 标签 ， 
的 数据 集 。 在 各 数据 集 上 ， 利 用 
然后 讨论 和 分 析 在 不 同上 值 条 从 
的 变化 情况 。 考 虑 到 不 同 特 和 


用 了 以 下 三 种 评估 


引 标 。 


Min-Max 方式 对 所 有 
E 各 数据 集 上 独立 重复 执行 2 
了 从 不 同 角度 分 析 聚 类 
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本 文 利用 信息 炉 评估 每 个 聚 簇 的 纯度 。 给 定 某 个 随机 变量 
X， 信 息 炉 定义 为 式 3) ,信息 凿 价 随机 变量 取 值 的 离散 程 
度 。 为 评估 聚 簇 中 App 分 布 的 离散 程度 ， 式 (3) 中 的 pi 表示 
第 i 个 App 在 聚 簇 中 的 百分比 。 信 息 灶 取 值 越 小 ， 表 示 聚 簇 的 
纯度 越 高 。 


Entropy(X)=—2, plog; p, (3) 
ti 


2) 轮廓 系数 

轮廓 系数 结合 了 簇 内 紧密 度 和 艇 间 分 离 度 两 种 因素 ， 如 式 
(4) 所 示 。 其 中 ，a 是 该 样本 与 同 簇 其 它 样本 的 平均 距离 ，b 
是 与 其 距离 最 近 的 它 艇 样本 的 平均 距离 。sE[-1, 1]，s 越 接 近 
于 1， 聚 类 效果 越 好 。 


5= 一 4 (4) 


max(a,b) 


3) CH 分 数 

CH 分 数 与 轮廓 系数 的 区 别 在 于 , CH 分 数 是 通过 计算 聚 徐 
内 各 点 与 其 中 心 的 距离 平方 和 表示 艇 内 紧密 度 ， 计 算 各 聚 艇 中 
心 点 与 数据 集中 心 点 的 距离 平方 和 表示 簇 间 分 离 度 ， 如 式 (5) 
所 示 。 其 中 ,tr 表示 矩阵 的 迹 ，Ui 为 簇 间 分 离 度 矩阵 ，Wi 为 簇 
内 紧密 度 矩 阵 。7 为 样本 数 ，k 为 聚 复数 。CH 分 数 越 大 代表 聚 
簇 自 身 越 紧密 ， 聚 簇 之 间 越 分 散 。 


tr(U,)-:(n—k) 


1rCV7 -Kk—1) (5) 
3.2 K- 均 值 与 谱 聚 类 在 不 同 数 据 集 上 的 性 能 分 析 
本 小 节 则 在 分 析 K- 均 值 和 谱 聚 类 算法 在 不 同 特征 集合 和 


不 同类 别 标签 的 流量 数据 集 上 的 性 能 ， 探 究 a) 聚 类 算法 在 不 


同 特征 集合 的 流量 数据 集 上 的 性 能 是 否 稳 定 ; b) 聚 类 算法 在 不 
同类 别 标 签 的 流量 数据 集 上 的 性 能 是 否 稳 定 ; c) K- 均 值 与 谱 聚 


类 算法 比较 , 哪 种 算法 在 流量 数据 上 的 性 能 更 优 ; d) 哪 一 类 特 
征集 合 在 流量 数据 上 表现 更 优 。 


3.2.1 在 SAD(App 类 别 标签 ) 数 据 集 上 的 性 能 

K- 均 值 和 谱 聚 类 算法 在 App 类 别 标记 数据 集 上 的 实验 结果 
分 别 如 图 2 和 图 3 所 示 。a) 信息 业 , 随 着 天 值 增加 ， 开 -均值 和 
谱 聚 类 的 信息 入 都 随 之 降低 ，K- 均 值 表现 相对 稳定 ， 波 动 次 数 
更 少 ,并 且 双 向 流 特征 集 的 信息 粹 最 小 ;b) 轮廓 系数 , 谱 聚 类 的 效 
果 劣 于 K- 均 值 ,对 于 表现 较 好 的 单 向 流 与 双向 流 特征 集 ， 谱 聚 
类 从 天 取 初 值 到 逐渐 增 大 的 过 程 中 , 其 轮廓 系数 基本 维持 在 0.4 
以 下 ， 而 K- 均 值 却 能 够 稳定 在 0.4 以 上 ;c) CH 分 数 : 对 于 4 
个 特征 集合 表示 的 数据 集 ，K- 均 值 的 CH 分 数 最 小 值 分 别 约 为 
480、420、220、160， 皆 大 于 谱 聚 类 的 最 大 值 分 别 约 370、320、 
80、45; 与 轮廓 系数 类 似 ， 双 向 流 特征 和 单 向 流 特征 获得 更 好 
的 性 能 。 


I 
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—e— BiDirection 
-全 -PS-mapped 
12 Pp5 


—#— UniDirection 


(a) 信息 烂 


-个 BlDirection 
700 ~ PS-mapped 


-Pp5 
—#— UniDirection 


(b) 轮 廓 系数 
图 2 KK- 均 值 在 SAD(App 类 别 标签 ) 数 据 集 上 的 实验 结果 


-他 BiDirection 
-全 -PS-mapped 350 
Pps 

UniDirection 


-全 -UniDirection 


Silhoutte Coefficient 


(a) 信息 


如 图 4、5 所 示 。 


a) 信息 粮 。 与 App 标签 数据 集 上 的 实验 
聚 类 算法 在 Behavior 标签 数据 集 上 的 性 能 更 优 ， 这 是 由 于 
Behavior 的 标签 比 App 的 标签 粒度 更 细 ， 同 个 类 别 的 数据 世 


10 —®- BiDirection 
~ ps-mapped 


-多 -PS 
—*— UniDirection 


(a) 信息 


3 4 6 8 10 12 14 16 18 20 2 4 6 8 10 12 14 16 18 20 
k value 


(b) 轮 廓 系数 (OCH 分 数 


图 3 谱 聚 类 在 SAD(App 类 别 标签 ) 数 据 集 上 的 实验 结果 
3.2.2 在 SAD(behavior 类 别 标签 ) 数 据 集 上 的 性 能 
K- 均 值 和 谱 聚 类 在 Behavior 类 别 数据 集 上 的 实验 乡 


集 程度 更 高 ， 更 易 聚 类 ; 当天 值 增 加 到 最 大 20 时 4 种 特征 集 

合 的 性 能 相差 不 多 。 

b) 轮廓 系数 与 

比 谱 聚 类 性 能 更 优 ， 
征集 合 性 能 更 优 。 


吉 果 分 别 
CH 分 数 : 类 似 App 数据 的 性 能 ，K- 均 值 
在 特征 集合 方面 ， 单 向 流 特征 和 双向 流 特 


吉 果 相 比 ， 两 种 


Hx 
3 和 < 


0.60 —®— BiDirection 1000 


0.55 


—#— UniDIrection 


—#— UniDirection 


Calinski Harabaz Score 


200 


(b) 轮 廓 系数 


图 4 K- 均 值 在 SAD(Behavior 类 别 标签 ) 数 据 集 上 的 实验 结果 


12 -他 BiDirection 


—#— UniDirection 


05 -BiDirection -他 -BiDirection 


04 ~ UniDirection —*— UniDirection 
031 
021 


011 


Silhoutte Coefficient 


(a) 信息 灶 


图 5 


kvalue 


(b) 轮 廓 系数 


谱 聚 类 在 SAD(Behavior 类 别 标签 ) 数 据 集 上 的 实验 结果 
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基于 上 述 实验 结果 


分 析 ， 得 出 以 下 结论 : 


a) 在 聚 类 方法 比较 方 


近 谱 聚 类 的 性 能 情况 下 
离 更 远 。 并 且 K- 均 值 的 
移动 互联 网 流量 识别 。 


胡 ，K- 均 值 的 聚 类 纯度 (信息 炉 ) 接 


， 其 肾 类 结果 的 聚 禾 内 更 紧密 ， 簇 间距 


计算 开销 低 于 谱 聚 类 ,，K- 均 值 更 适用 于 
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bi 


网 流量 识别 ， 本 小 节 将 采用 K- 均 值 作为 基础 算法 , 单 向 流 特征 
CUniDirection) 和 双向 流 特征 〈BiDirection ) 作为 特征 集合 ， 
在 规模 更 大 、App 类 别 更 多 的 MAD 数据 集 上 验证 MFEC 方法 
的 性 能 。 在 性 能 评价 指标 方面 ， 采 用 上 述 三 项 指标 之 外 ，SSE 
(sum of squared errors ) 和 App 识别 准确 率 也 将 作为 评价 指标 。 
为 了 缓解 类 间 样 本 不 平衡 对 聚 类 实验 性 能 的 影响 ， 每 个 应 用 抽 


b) 在 4 个 特征 集合 比较 方面 , 单 向 流 特征 和 双向 流 特征 集 


总 是 表现 更 优 。 这 是 由 
大 小 和 报 文 到 达 时 间 间 
两 者 之 一 没有 
的 MFEC 方法 , 可 和 集成 


是 高 单个 特征 的 聚 


四 
不 ， 


两 种 特征 
类 性 能 。 


于 这 两 类 特征 的 信息 量 更 丰富 ， 对 报 文 
隔 进 行 了 不 同 角度 的 统计 计算 。 但 是 ， 
总 是 表现 最 优 ， 各 有 不 同 的 适应 场景 。 本 文 提出 
集合 表征 的 数据 集 上 的 聚 类 结 


实验 结果 还 表明 , 在 App 目标 数据 上 比 在 Behavior 目标 数 


据 上 的 聚 类 更 难 ， 这 是 


由 于 App 包括 了 多 种 行为 ， 不 同 App 


之 间 还 存在 相似 的 行为 。 第 3.3 小 节 将 在 较 难 识别 的 多 个 App 
标记 的 数据 集 上 验证 MFEC 的 性 能 。 
3.3 MAD 数据 集 上 MFEC 方法 性 能 验证 分 析 


根据 第 3.2 小 节 实 


为 验证 各 聚 类 方法 在 App 识别 # 
鉴 文献 [9] 的 做 法 , 对 于 每 个 聚 徐 可 将 档 


样 了 4 000 条 网 络 流 ， 不 足 4 000 的 则 全 部 抽样 。 
3.3.1 MFEC 实验 性 能 分 析 
MAD 数据 集 上 聚 类 评估 结果 如 图 6 所 示 ， 
UniDirection 和 BiDirection 表示 采用 相应 特征 集合 的 K- 均 值 ， 
MFEC 表示 本 文 的 集成 聚 类 方法 。 实 验 结果 表明 ， 随 着 天 值 的 
增加 ，K- 均 值 和 集成 聚 类 产生 的 SSE 和 信息 料 现 较为 平稳 的 
下 降 趋 势 ; 轮廓 系数 在 整体 上 是 上 升 的 , 而 CH 分 数 是 下 降 的 ， 
且 随 着 天 值 的 增加 而 渐渐 趋向 平稳 。 其 原因 可 能 是 随 着 天 值 增 
加 ， 属 于 相同 类 别 的 流 样 本 划分 到 多 个 聚 徐 ， 簇 间 的 距离 可 能 
降低 。 总 体 上 ， 集 成 聚 类 的 性 能 总 是 保持 最 优 ， 实 验 结果 验证 


其 中 ， 


NN i y 4/ 工 位 
了 MFEC 方法 可 以 进一步 提高 利用 单个 特征 集合 的 K- 均 值 的 
验 结果 ，K- 均 值 相 对 更 适用 于 移动 互联 ”性 能 ， 
0 -名 UniDirection 人 —®- UniDirection 
BiDirection BiDirection 
3000 ~ MFEC 1.85 一 4 MFEC 
2600 
2200 \ 
类 1800 
1400 
1000 
600 
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20 
kvalue k vah 
(a) SSE (b) 信息 炉 
0.52 4100 
—- UniDirection -名 -UniDirection 
os0 ee me 
3900 
0.48 
.0.46 v 3700 
i 5 
0.44 要 
0.42 NM YA 人 -A、 3 
时 吕 
0.40 © 3300 
0.38 
3100 Ah | 
0.36 
ne 2 4 6 8 10 12 14 16 18 4 6 8 10 12 14 16 18 20 
k value k value 
(c) 轮廓 系数 Cd) CH 分 数 


为 这 个 簇 的 所 有 样本 的 
识别 准确 率 可 定义 为 ， 


预测 类 别 标签 ， 从 而 计算 识别 准 


对 于 给 定 的 应 用 样本 识别 出 的 应 用 流 关 


与 总 流 数 之 比 ， 定 义 如 


Accuracy = 


F: 


TP+TN 
TP+FP+TIN+FN 


(6) 


图 6 MFEC 与 K- 均 值 的 
住 确 率 方面 的 性 能 ， 本 文 借 
本 数 最 多 的 App 标签 作 


项 指标 性 能 比较 
7 显示 了 K- 均 值 与 MFEC 对 App 的 识别 准确 率 。 实 验 
结果 表明 , 当 2<K<7 时 , K 均值 在 整体 上 比 MFEC 的 识别 准 


确 率 要 高 。 随 着 KK 值 增 大 ， 样 本 得 以 更 细 的 划分 ， 因 而 各 自 的 
准确 率 也 逐渐 增加 。 其 中 MFEC 的 提升 尤为 明显 ， 并 明显 地 超 


过 了 -均值 。MFEC 的 结果 表明 , 平均 性 能 可 达到 70% 以 上 的 
App 识别 准确 率 。 
基于 多 特征 集 的 MFEC 的 性 能 优 于 K- 均 值 聚 类 。 其 主要 
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原因 可 能 是 ， 集 成 聚 类 能 够 综合 利用 在 不 同 特征 集 上 建立 的 多 
个 聚 类 模型 所 得 结果 , 在 一 定 程度 上 起 到 “ 集 优 ”的 效果 。 另 外 ， 
采用 集成 聚 类 可 以 帮助 提高 App 识别 准确 率 。 当 天 取 值 更 大 时 ， 
集成 聚 类 更 能 显 出 它 的 这 一 优势 。 


0.9 


mw UniDirection 
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图 7 MFEC 与 KK 均值 的 识别 准 
3.3.2 基于 集成 聚 类 的 App 相似 度 分 析 
目前 , 已 有 大 量 移动 App, 而 将 机 器 学 习 算 法 用 于 大 量 App 
分 类 的 性 能 往往 较 差 ， 这 是 由 于 比较 相似 的 应 用 容易 被 相互 错 
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为 应 用 划分 和 用 户 行为 分 析 提 供 客观 建议 。 
1) App 相似 度 评价 指标 
基于 Jaccard 距离 指标 ， 本 文 提出 App 间 相 似 度 指标 ， 其 
定义 如 下 : 


a min{a,,b,} 


similarity(A,B)= © tb (7) 
n 


其 中 :a; 和 bi 分 别 表 示 应 用 A 和 应 用 B 在 第 i 个 聚 簇 中 的 样本 数 ， 
聚 簇 总 数 为 n。 此 指标 的 取 值 范 围 为 [0, 0.5]。 当 取 值 为 0, 表示 
A 和 B 没有 样本 聚 类 到 相同 的 徐 ， 两 者 相似 度 最 低 : 当 取 值 为 
0.5， 表 示 A 和 B 之 间 相 似 度 最 高 


2) App 相似 度 的 分 析 

MFEC 聚 类 后 的 App 相似 度 矩 阵 如 表 4 所 示 ， 灰 体 表示 自 
身 的 相似 度 ， 粗 体 表示 其 相似 度 高 于 相似 度 闵 值 ( 所 有 相似 度 
的 平均 ， 即 0.278)。 其 中 ， 某 些 App (如 Browser) 与 多 个 App 
相似 ， 而 某 些 App (YahooMail) 则 没有 与 之 相似 的 App。 为 了 
更 清晰 的 表明 App 的 相似 关系 , 本 文 建立 了 如 图 8 所 示 的 关联 
图 。 在 图 8 中 ， 每 个 节点 表示 和 矩阵 中 行 和 列 的 某 个 App， 若 两 


分 所 致 ， 例 如同 属于 社交 应 用 的 QQ 和 微 信 。 茶 些 文 献 错 误 ! 。 个 App 相似 度 大 于 某 个 阔 值 ， 则 建立 一 条 边 ， 并 且 边 的 权重 为 
未 找到 引用 源 。 采 用 粗 粒度 的 互联 网 流量 分 类 ， 将 相似 的 应 相似 度 。 
归 为 一 类 ， 但 现 有 的 应 用 划分 方式 主要 基于 主观 判断 。 本 节 将 
MFEC 方法 应 用 到 MAD 数据 集 ， 分 析 各 应 用 之 间 的 相似 度 ， 
表 4 MAD 数据 集 App 相似 度 和 矩阵 
Browser JdShop MeTV QQ VipShop WeChat Weibo YahooMail Youku 
Browser 0.500 0.342 0.224 0.249 0.334 0.347 0.364 0.316 0.254 
JdShop 0.342 0.500 0.186 0.306 0.349 0.318 0.307 0.209 0.274 
MgTV 0.224 0.186 0.500 0.219 0.195 0.235 0.158 0.236 0.339 
QQ 0.249 0.306 0.219 0.500 0.318 0.400 0.247 0.304 0.257 
VipShop 0.334 0.349 0.195 0.318 0.500 0.307 0.254 0.284 0.182 
WeChat 0.347 0.318 0.235 0.400 0.307 0.500 0.324 0.290 0.307 
Weibo 0.364 0.307 0.158 0.247 0.254 0.324 0.500 0.245 0.314 
YahooMail 0.316 0.209 0.236 0.304 0.284 0.290 0.245 0.500 0.213 
Youku 0.254 0.274 0.339 0.257 0.182 0.307 0.314 0.213 0.500 
图 8 表明 ， 与 WeChat 相似 的 App 有 7 个 ， 按 相似 度 大 小 
排列 分 别 是 QQ、Browser、Weibo、JdShop、Youku、Vipshop SYS 
和 YahooMail。 类 似 地 ， 与 Weibo 相似 的 有 Browser、WeChat、 
JdShop 和 Youku。 其 中 ,形成 多 个 全 关联 子 图 , 例如 : WeChat、 
Weibo、JdShop 和 Browser 等 。 全 关联 子 图 的 App 可 划分 为 一 
类 。 若 不 断 将 相似 阔 值 提高 ， 则 可 以 找 出 与 某 个 App 最 为 相似 
的 App， 帮 助 提高 App 划分 的 准确 率 。 例 如 当 相 似 阔 值 提高 到 
0.32 时 ， 仅 有 WeChat、Browser、Weibo 形成 全 关联 子 图 ， 即 
表示 这 三 个 应 用 最 为 相似 ， 可 建议 将 它们 划分 为 一 个 类 别 。 这 图 8 MAD 数据 集 上 App 相似 关联 图 
意味 着 ， (en ， 用 户 在 使 用 WeChat 和 Weibo 4 ”结束 语 
方面 ， 更 多 的 表现 为 浏览 行为 。 
本 文 基于 多 项 评估 指标 , 分 析 -均值 和 谱 聚 类 方法 在 不 同 


特征 集合 或 不 同类 别 标签 的 移动 互联 网 流量 数据 集 上 的 聚 类 性 
能 。 实 验 结果 表明 ，K- 均 值 在 App 流量 识别 方面 的 性 能 优 于 谱 


录用 稿 


聚 类 ， 并 且 单 向 流 特征 和 双向 流 特征 更 适用 于 App 流量 识别 。 
为 了 综合 利用 不 同 角度 的 特征 集合 ， 本 文 提 出 基于 多 个 特征 集 
合 的 集成 聚 类 方法 MFEC， 提 高 聚 类 性 能 。 实 验 结果 表明 ， 
MFEC 能 进一步 提高 K- 均 值 的 App 识别 准确 率 。 最 后 ,本文 将 
MFEC 方法 运用 于 App 相似 度 分 析 ， 分 析 结 果 可 辅助 于 用 户 
App 上 网 行为 的 分 析 ， 并 为 繁杂 的 App 归 类 提供 客观 的 建议 。 


本 文 主要 对 常用 的 特征 集合 进行 了 分 析 与 比较 ， 未 来 将 结合 
MPEC 方法 ， 在 移动 互联 网 流量 数据 集 上 研究 性 能 更 优 的 特征 
集合 。 
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